AI资讯新闻榜单内容搜索- transform

NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

在视觉处理任务中，Vision Transformers（ViTs）已发展成为主流架构。然而，近期研究表明，ViT 模型的密集特征中会出现部分与局部语义不一致的伪影（artifact），进而削弱模型在精细定位类任务中的性能表现。因此，如何在不耗费大量计算资源的前提下，保留 ViT 模型预训练核心信息并消除密集特征中的伪影？

来自主题: AI技术研报

8456 点击 2025-11-20 09:33

何恺明重磅新作：Just image Transformers让去噪模型回归基本功

大家都知道，图像生成和去噪扩散模型是密不可分的。高质量的图像生成都通过扩散模型实现。

来自主题: AI技术研报

7706 点击 2025-11-19 16:42

3D视觉被过度设计？字节Depth Anything 3来了，谢赛宁点赞

机器之心报道编辑：泽南、杨文现在，只需要一个简单的、用深度光线表示训练的 Transformer 就行了。这项研究证明了，如今大多数 3D 视觉研究都存在过度设计的问题。本周五，AI 社区最热

来自主题: AI技术研报

8600 点击 2025-11-16 11:27

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

一篇入围顶会NeurIPS’25 Oral的论文，狠狠反击了一把DiT（Diffusion Transformer）。这篇来自字节跳动商业化技术团队的论文，则是提出了一个名叫InfinityStar的方法，一举兼得了视频生成的质量和效率，为视频生成方法探索更多可能的路径。

来自主题: AI技术研报

9080 点击 2025-11-14 14:25

RAE+VAE? 预训练表征助力扩散模型Tokenizer，加速像素压缩到语义提取

近期，RAE（Diffusion Transformers with Representation Autoencoders）提出以「冻结的预训练视觉表征」直接作为潜空间，以显著提升扩散模型的生成性能。

来自主题: AI技术研报

11558 点击 2025-11-14 10:21

首个实例理解3D重建模型！NTU&阶越提出基于实例解耦的3D重建模型，助理场景理解

现在，NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ，一个创新的端到端大型统一Transformer，首次将空间重建与实例级上下文理解融为一体。

来自主题: AI技术研报

6727 点击 2025-10-31 14:49

八年后，Meta教会了Transformer「显式思考」

最近的 Meta 可谓大动作不断，一边疯狂裁人，一边又高强度产出论文。

来自主题: AI技术研报

10525 点击 2025-10-27 10:18

稳定训练、数据高效，清华大学提出「流策略」强化学习新方法SAC Flow

本文介绍了一种用高数据效率强化学习算法 SAC 训练流策略的新方案，可以端到端优化真实的流策略，而无需采用替代目标或者策略蒸馏。SAC FLow 的核心思想是把流策略视作一个 residual RNN，再用 GRU 门控和 Transformer Decoder 两套速度参数化。

来自主题: AI技术研报

8524 点击 2025-10-19 11:48

谷歌开源全栈平台Coral NPU，能让大模型在手表上全天候运行

他们又推出了 Coral NPU，可用于构建在低功率设备上持续运行的 AI。具体来说，其可在可穿戴设备上运行小型 Transformer 模型和 LLM，并可通过 IREE 和 TFLM 编译器支持 TensorFlow、JAX 和 PyTorch。

来自主题: AI资讯

11974 点击 2025-10-17 08:38

NeurIPS 2025 Spotlight | 条件表征学习：一步对齐表征与准则

一张图片包含的信息是多维的。例如下面的图 1，我们至少可以得到三个层面的信息：主体是大象，数量有两头，环境是热带稀树草原（savanna）。然而，如果由传统的表征学习方法来处理这张图片，比方说就将其送入一个在 ImageNet 上训练好的 ResNet 或者 Vision Transformer，往往得到的表征只会体现其主体信息，也就是会简单地将该图片归为大象这一类别。这显然是不合理的。

来自主题: AI技术研报

7920 点击 2025-10-16 14:43